Über mich

Ich bin Senior Postdoc und arbeite an der Optimierung für maschinelles Lernen. Derzeit konzentriere ich mich auf Deep Learning und seine mathematischen Grundlagen. Mein Ziel ist es, Optimierungsmethoden zu entwerfen, deren erfolgreiches Ergebnis bei der Anwendung auf Deep Learning nachweislich gewährleistet werden kann.

Forschungsinteressen
mathematics of deep learning | large-scale optimization | line search methods

Kurzbiografie

Ich habe meinen Bachelor-, Master- und Doktortitel an der Universität Florenz in den Jahren 2013, 2016 bzw. 2020 erworben. Meine Doktorväter und Mentoren dort waren Prof. Marco Sciandrone und prof. Fabio Schoen. Um stereotype Kommentare über Italiener zu vermeiden, habe ich während meines Studiums einige Male versucht, meiner Heimatstadt zu entfliehen (Universität Würzburg im Jahr 2015, UCLA im Jahr 2019 und National Taiwan University im Jahr 2020). Von 2015 bis 2017 arbeitete ich mit prof. Christian Kanzow an verallgemeinerten Nash-Gleichgewichtsproblemen und von 2018 bis 2020 mit prof. Chih-Jen Lin an trunkierten Newton-Methoden für lineare SVM. Im Jahr 2021 wechselte ich an die RWTH Aachen, wo ich das 2-jährige KI-Starter-Personalstipendium des Landes Nordrhein-Westfalen gewann. Seitdem arbeite ich zusammen mit Prof. Holger Rauhut und Prof. Mark Schmidt an Liniensuchmethoden für Deep Learning. Seit 2023 bin ich nun Senior Postdoc an der LMU München.

Projects

Mein Ziel ist es, effiziente stochastische nichtmonotone Liniensuchmethode zu entwickeln, die eine schnelle Konvergenz erreichen, wenn sie zum Trainieren überparametrierter Modelle eingesetzt werden. Die Herausforderungen in diesem Projekt sind sowohl mathematischer als auch numerischer Natur. Da die klassische Konvergenzanalyse der Optimierung nicht auf neuronale Netze anwendbar ist, besteht mein Ziel darin, die guten Eigenschaften von Liniensuchmethode zu nutzen, um Konvergenz für stochastischen Gradientenabstieg zu beweisen. Parallel dazu untersuche ich verschiedene theoretisch untermauerte Optionen zur Verringerung des durch Liniensuchmethode verursachten Overheads.

In der neueren Literatur hat eine konsistente Reihe von Experimenten mit verschiedenen Architekturen und Datensätzen gezeigt, dass das Training neuronaler Netze mittels Gradientenabstieg mit einer Schrittgröße t zwei verschiedene Phasen durchläuft. In der ersten Phase (progressive sharpening) nimmt die Verlustfunktion monoton ab, während die Schärfe (der größte Eigenwert der Hessian der Trainingsverlustfunktion) zunimmt. In der zweiten Phase (Stabilitätsgrenze) nimmt der Verlust nicht monoton ab, während sich die Schärfe um 2/t stabilisiert. In diesem Projekt versuchen wir, dieses rätselhafte Phänomen durch den Einsatz von Liniensuchmethode zu verstehen.

In Anbetracht des extrem großen Umfangs moderner LLM ist es im Allgemeinen nicht möglich, eine Auswahl von Hyperparametern für das ursprüngliche Netz vorzunehmen. In der Praxis wird dieses Verfahren auf kleinere Netze angewandt, und die daraus resultierenden besten Parameter werden gemäß einer halbformalen Argumentation (d. h. muP-Parametrisierung) auf das größere Netz übertragen. Bei dem Versuch, einen soliden Algorithmus für diese Übertragung zu entwickeln, stießen wir auf eine grundlegendere Frage im Zusammenhang mit der loss landscape neuronaler Netze.

Publikationsliste